<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>每份文档一种语言 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/one-lang-docs.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/one-lang-docs.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/one-lang-docs.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/one-lang-docs.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="languages.html">处理人类语言</a></span>
»
<span class="breadcrumb-link"><a href="language-intro.html">开始处理各种语言</a></span>
»
<span class="breadcrumb-node">每份文档一种语言</span>
</div>
<div class="navheader">
<span class="prev">
<a href="language-pitfalls.html">« 混合语言的陷阱</a>
</span>
<span class="next">
<a href="one-lang-fields.html">每个域一种语言 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="one-lang-docs"></a>每份文档一种语言<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/200_Language_intro/40_One_language_per_doc.asciidoc">edit</a>
</h2>
</div></div></div>
<p>每个主语言文档 只需要相当简单的设置。 不同语言的文档被分别存放在不同的索引中 — <code class="literal">blogs-en</code> 、
<code class="literal">blogs-fr</code> ， 如此等等 — 这样每个索引就可以使用相同的类型和相同的域，只是使用不同的分析器：</p>
<div class="pre_wrapper lang-js">
<pre class="programlisting prettyprint lang-js">PUT /blogs-en
{
  "mappings": {
    "post": {
      "properties": {
        "title": {
          "type": "string", <a id="CO129-1"></a><i class="conum" data-value="1"></i>
          "fields": {
            "stemmed": {
              "type":     "string",
              "analyzer": "english" <a id="CO129-2"></a><i class="conum" data-value="2"></i>
            }
}}}}}}

PUT /blogs-fr
{
  "mappings": {
    "post": {
      "properties": {
        "title": {
          "type": "string", <a id="CO129-3"></a><i class="conum" data-value="1"></i>
          "fields": {
            "stemmed": {
              "type":     "string",
              "analyzer": "french" <a id="CO129-4"></a><i class="conum" data-value="2"></i>
            }
}}}}}}</pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO129-1"><i class="conum" data-value="1"></i></a><a href="#CO129-3"></a></p>
</td>
<td align="left" valign="top">
<p>索引 <code class="literal">blogs-en</code> 和 <code class="literal">blogs-fr</code> 的 <code class="literal">post</code> 类型都有一个包含 <code class="literal">title</code> 域。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO129-2"><i class="conum" data-value="2"></i></a><a href="#CO129-4"></a></p>
</td>
<td align="left" valign="top">
<p><code class="literal">title.stemmed</code> 子域使用了具体语言的分析器。</p>
</td>
</tr>
</table>
</div>
<p>这个方法干净且灵活。新语言很容易被添加 — 仅仅是创建一个新索引—​因为每种语言都是彻底的被分开，
我们不用遭受在 <a class="xref" href="language-pitfalls.html" title="混合语言的陷阱">混合语言的陷阱</a> 中描述的词频和词干提取的问题。</p>
<p>每一种语言的文档都可被独立查询，或者通过查询多种索引来查询多种语言。
我们甚至可以使用 <code class="literal">indices_boost</code> 参数为特定的语言添加优先权：</p>
<div class="pre_wrapper lang-js">
<pre class="programlisting prettyprint lang-js">GET /blogs-*/post/_search <a id="CO130-1"></a><i class="conum" data-value="1"></i>
{
    "query": {
        "multi_match": {
            "query":   "deja vu",
            "fields":  [ "title", "title.stemmed" ] <a id="CO130-2"></a><i class="conum" data-value="2"></i>
            "type":    "most_fields"
        }
    },
    "indices_boost": { <a id="CO130-3"></a><i class="conum" data-value="3"></i>
        "blogs-en": 3,
        "blogs-fr": 2
    }
}</pre>
</div>
<div class="calloutlist">
<table border="0" summary="Callout list">
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO130-1"><i class="conum" data-value="1"></i></a></p>
</td>
<td align="left" valign="top">
<p>这个查询会在所有以 <code class="literal">blogs-</code> 开头的索引中执行。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO130-2"><i class="conum" data-value="2"></i></a></p>
</td>
<td align="left" valign="top">
<p><code class="literal">title.stemmed</code> 字段使用每个索引中指定的分析器查询。</p>
</td>
</tr>
<tr>
<td align="left" valign="top" width="5%">
<p><a href="#CO130-3"><i class="conum" data-value="3"></i></a></p>
</td>
<td align="left" valign="top">
<p>也许用户接受语言标头表明，更倾向于英语，然后是法语，所以相应的，我们会为每个索引的结果添加权重。任何其他语言会有一个中性的权重 1 。</p>
</td>
</tr>
</table>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_外语单词"></a>外语单词<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/200_Language_intro/40_One_language_per_doc.asciidoc">edit</a>
</h3>
</div></div></div>
<p>当然，有些文档含有一些其他语言的单词或句子，且不幸的是这些单词被切为了正确的词根。对于主语言文档，这通常并不是主要的问题。用户经常需要搜索很精确的单词—​例如，一个其他语言的引用—​而不是语型变化过的单词。召回率 (Recall)可以通过使用 <a class="xref" href="token-normalization.html" title="归一化词元"><em>归一化词元</em></a> 中讲解的技术提升。</p>
<p>假设有些单词例如地名应当能被主语言和原始语言都能检索，例如 <em>Munich</em> 和 <em>München</em> 。
这些单词实际上是我们在 <a class="xref" href="synonyms.html" title="同义词"><em>同义词</em></a> 解释过的同义词。</p>
<div class="sidebar">
<div class="titlepage"><div><div>
<p class="title"><strong>不要对语言使用类型</strong></p>
</div></div></div>
<p>你也许很倾向于为每个语言使用分开的类型，来代替使用分开的索引。
为了达到最佳效果，你应当避免使用类型。在 <a class="xref" href="mapping.html" title="类型和映射">类型和映射</a> 解释过，不同类型但有相同域名的域会被索引在 <em>相同的倒排索引</em> 中。这意味着不同类型（和不同语言）的词频混合在了一起。</p>
<p>为了确保一种语言的词频不会污染其他语言的词频，在后面的章节中会介绍到，无论是为每个语言使用单独的索引，还是使用单独的域都可以。</p>
</div>
</div>

</div>
<div class="navfooter">
<span class="prev">
<a href="language-pitfalls.html">« 混合语言的陷阱</a>
</span>
<span class="next">
<a href="one-lang-fields.html">每个域一种语言 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>